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摘 要 问题 解决 能 力 是 指 在 没有 明显 解决 方法 的 情况 下 个 体 从 事 认 知 加 工 以 理解 和 解决 问题 情境 的 能 

对 问题 解决 能 力 的 测量 需要 借助 相对 更 复杂 、 更 真实 、 具 有 可 交互 性 的 问题 情境 来 诱导 问题 解决 行为 的 呈现 。 
使 用 虚拟 测评 抓 取 问题 解决 的 过 程 数 据 并 分 析 其 中 所 蕴含 的 潜在 信息 是 当前 心理 计量 学 中 测量 问题 解决 能 

的 新 趋势 。 首 先 ， 回 顾问 题解 决 能 力 测量 方式 的 发 展 : 从 纸 笔 测验 到 虚拟 测评 。 然 后 ,总 结对 比 两 类 过 程 数据 
的 分 析 方 法 : 统计 建 模 法 和 数据 挖 气 法 。 最 后 ,从 非 认 知 因素 的 影响 、 多 模 态 数据 的 利用 、 问 题解 决 能 力 发 
展 的 测量 、 其 他 高 阶 思维 能 力 的 测量 和 问题 解决 能 力 概念 及 结构 的 界定 五 个 方面 展望 未 来 可 能 的 研究 方向 。 

关键 词 ”问题 解决 能 力 , 过程 数据 ,虚拟 测评 ,计算 机 化 测验 , 高 阶 思 维 能 力 
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1 引言 (representing and formulating) 、(3) 计 划 和 执行 
lanni ing) 和 (4) 监 测 思 
“在 现代 社会 里 ， 所 有 生活 都 是 问题 解决 Qn Planning and executing) 和 (4) Hi W 和民 
4 ‘dice ahaha pi newer (monitoring and reflecting). 我 国 也 于 2016 年 发 布 
modem scalpel ski. Cg Rie HF) AEE 
D, 2014) Mayer (1990 FIRE (problem 为 实践 创新 的 基本 点 之 一 ,强调 学 生 要 “善于 发 
solving) 定 义 为 在 没有 明显 解决 方法 的 情况 下 ,将 现 和 提出 问题 次 问题 的 愉 热情 ; 能 
一 个 给 定 情境 转换 为 目标 情境 的 认 知 孝 寺 过程。 FARRAR, ATALANTA 和 
os a ee. ad oe 据 特 定 情境 和 具体 条 件 ,选择 制订 合理 的 解决 方 
JEF IL, OECD (2013) 将 问题 解决 能 力 (problem- “isi ey Yada i ie a 
i tence)! 定义 为 在 没有 明显 解决 方法 案 ; 具有 在 复杂 环境 中 行动 的 能 力 等 ”。 
in mM n \ N 
a i i ie. «yoi i 区 别 于 利用 特定 领域 或 问题 情境 的 专业 知识 
的 情况 下 个 体 从 事 认 知 加 工 以 理解 和 解决 问题 情 ie ei. Ae Be oie z PoS 
aae E ie See ies vale 或 技能 的 能 力 ， 问 题解 决 能 力 聚 焦 于 能 处 理 真 实 
境 的 能 力 ; 同时 包括 个 体 参与 问题 解决 的 意愿 。 、 Ce 
a eO IES RH 生活 中 所 遇 问 题 的 认 知 技能 ， 其 包括 在 环境 中 获 
其 中 , 认 知 加 工 可 进一步 细 分 为 (1) 探 索 和 理解 a f 
l ; ; 取 和 使 用 新 知识 的 能 力 或 采用 新 方式 结合 个 体 已 
(exploring and understanding) 、(2) 表 征 和 构想 、 k 
有 的 知识 去 解决 新 问题 的 能 力 。 作 为 一 种 不 局 限 
于 特定 问题 (任务 ) 人 情境 的 一 般 化 能 力 ,问题 解决 
收 稿 日 期 2021-07-08 能 力 所 涉及 的 内 容 远 不 止 对 个 体 所 积累 的 知识 的 
* 国家 自然 科学 基金 青年 科学 基金 项 目 (31900795) 和 浙江 EM, 它 还 涉及 到 对 认 知 和 实践 技能 、 创 造 力 和 
SET AL ce PE TEE eS e R” 其 他 社会 心理 资源 (比如 态度 LA A e E 
oak ane Alea 动 (OECD, 2013). 739, OECD (2013) 对 问题 解决 
通讯 作者 : 詹 沛 达 , E-mail: pdzhan@gmail.com 引 (OECD， 、 ( Ld A 
| 不 同 研究 对 “competence” 一 词 的 翻译 存在 差异 ， 其 译文 能 力 的 定义 强调 个 体 在 解决 问题 时 的 认 知 加 工 过 
括 但 不 限于 “能 力 ”、“ 素 养 " 和 “胜任 力 ” 针对 问题 解决 这 一 程 ， 并 明确 指出 “学 生 对 评估 题目 的 作答 一 一 他 们 
返 也 的 探索 策略 ,在 建 模 问题 时 使 用 的 表征 ， 数 字 和 
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寺 定 主题 ， 作 者 认为 将 “competence" 译 为 "能力 ”更 合 ; 
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将 用 于 推断 他 们 所 采用 的 认 知 加 工 过 程 ”(OECD， 
2013, p.122). 

问题 解决 能 力作 为 一 种 重要 的 高 阶 思维 能 力 ? 
(Autor & Dorn, 2009), 是 个 体 适应 社会 与 生活 的 
必 备 特质 ， 也 是 个 体 胜任 未 来 工作 的 核心 能 力 之 
一 。 换 句 话 说 ,具有 高 水 平 问 题解 决 能 力 的 人 才 
是 促进 新 时 代 社 会 进步 的 主要 动力 。 然 而 ， 对 问 
题解 决 能 力 的 测量 需要 依托 于 真实 的 、 复 杂 的 、 
具有 可 交互 性 的 问题 情境 (任务 )， 以 充分 展现 问 
题解 决 的 过 程 并 保证 测量 的 效 度 ; 因此 ， 如 何 实 
现 对 个 体 问 题解 决 能 力 的 客观 测量 不 仅 对 传统 的 
心理 测量 方式 (例如 , 采用 诸如 李 克 特 式 题目 的 纸 
笔 测验 ) 提 出 了 挑战 ,也 对 传统 的 心理 测量 数据 分 
析 方 法 和 理论 (例如 ,经 典 测量 理论 (classical test 
theory, CTT) 和 题目 作答 理论 (item response theory, 
IRT)) 提 出 了 挑战 。 

面 对 信 息 智 能 时 代 的 全 新 挑战 ， 提 升 高 阶 思 
维 能 力 、 落 实 核心 素养 ， 并 建构 与 之 相应 的 新 测 
评 体系 显得 尤为 迫切 。 近 些 年 ， 随 着 心理 与 教育 
测量 理论 与 应 用 研究 的 发 展 , 尤其 是 近 两 年 受 新 
冠 肺炎 (COVID-19) 疫 情 的 影响 , 计算 机 (网 络 ) 化 
测评 形式 逐渐 成 为 人 们 的 关注 焦点 和 现实 需求 。 
虚拟 测评 (virtual assessment) 是 指 在 计算 机 化 虚拟 
环境 中 进行 的 , 可 利用 虚拟 环境 特性 的 测评 方式 
(Agard & von Davier, 2018), 常见 的 有 情景 化 
(scenario-based)、 模 拟 化 (simulation-based) 和 游戏 
化 (game-based) 测 评 。 虚拟 测评 是 对 传统 测评 的 革 
新 ,， 它 更 具 真 实 性 、 情 景 性 和 趣味 性 ， 能 够 增加 学 
生 的 代入 感 、 公 平 感 并 缓解 测验 焦虑 ， 进而 促使 
学 生 展 现 出 “真实 的 自己 ”(Banfield & Wilkerson, 
2014; Li et al., 2015). 使 用 虚拟 测评 探究 学 生 高 阶 
思维 能 力 或 学 科 核 心 素养 已 成 为 心理 与 教育 测量 
的 新 趋势 (Liu et al., 2018; Shute & Moore, 2018; 
PSE 等 , 2018; WEI, ed 比如 ， 徐 
俊 怡 和 李 中 权 (2021) 对 游戏 化 测评 的 概念 .范式 和 
KRENT RANMA; MELA OIDA 
Shute 和 Rahimi (2020) 采 用 游戏 化 测评 分 别 测量 
了 学 生 的 推理 能 力 和 创造 力 。 除 带 有 实验 设计 色 


?高 阶 思维 是 指 发 生 在 较 高 层次 水 平 上 的 认 知 活动 , 包括 批判 
性 思维 、 创 造 性 思维 、 问 题解 决 和 决策 等 ， 其 不 仅 影 响 着 个 
体 在 学 业 或 事业 上 的 表现 , 也 是 当代 社会 发 展 对 人 才 的 基本 
要 求 ( 钟 志 贤 , 2004; Brookhart, 2010; Carroll & Harris, 2020)。 


彩 的 小 规模 测评 外 , 诸如 国际 学 生 评 估 项 目 
(Programme for International Student Assessment, 
PISA) 和 美国 教育 进步 测评 (National Assessment 
of Educational Progress, NEAP) 等 大 规模 测评 项 目 
也 已 经 开始 使 用 虚拟 测评 工具 来 测量 学 生 的 高 阶 
思维 能 力 (OECD, 2016; NCES, 2014)。 比 如 , PISA 
2012 和 NEAP 2014 探 究 了 学 生 的 个 体 问题 解决 能 
力 ; PISA 2015 探究 了 学 生 的 合作 问题 解决 能 
我 国 国家 基础 教育 质量 监测 也 于 2020 年 开始 使 
用 虚拟 测评 工具 测量 学 生 的 科学 探究 能 力 。 

与 传统 测评 方式 相 比 ， 虚 拟 测评 可 基于 日 志 
文件 (log-file) 同 时 抓 取 个 体 作 答 的 结果 数据 
(outcome data) 和 过 程 数 据 (process data)。 结 果 数 
据 是 指 诸如 题目 作答 精度 等 传统 数据 ; 而 过 程 数 
TEAL TS ir A EN [a] Ak (time stamp) 的 能 够 反映 个 体 解 
决 问题 过 程 的 人 机 或 人 人 交互 数据 (Bergner & 
von Davier, 2018; Hao et al., 2015), J58 H JZ h 
过 程 数据 (例如 ,题目 作答 时 间 、 题 目 操作 (鼠标 点 
击 ) 次 数 和 答案 修改 ( 试 错 ) 次 数 ) 和 相对 更 为 精细 
的 操作 层面 过 程 数据 (例如 ,操作 历程 、 操 作 时 
间 )。 分 析 过 程 数据 有 助 于 了 解 个 体 的 问题 解决 过 
程 、 探 究 个 体 的 问题 解决 策略 ， 对 精准 诊断 学 习 
现状 、 促 进 学 习 发 展 具 有 重要 作用 (Bergner & von 
Davier, 2018; Jiao et al., 2019; ZÆ, XAS, 
2020)。 对 过 程 数据 的 分 析 使 得 研究 重点 从 探究 
“结果 是 什么 ”转变 为 探究 “结果 是 如 何 产生 ” 
(Greiff et al., 2015), 与 关注 结果 数据 的 传统 测评 
相 比 , 额外 关注 过 程 数 据 的 虚拟 测评 对 传统 的 测 
评 数据 分 析 方 法 提出 了 挑战 。 如 何 合理 地 分 析 与 
利用 过 程 数 据 , 已 成 为 当前 心理 与 教育 测量 学 、 
教育 数据 挖掘 和 学 习 分 析 等 交叉 学 科 领 域 的 研究 


综 上 所 述 ， 作 为 一 种 高 阶 思 维 能 力 ， 问 题解 
决 能 力 的 测量 1 与 传统 必 理 特质 的 测量 存在 较 大 差 
异 : 前 者 需要 借助 相对 更 复杂 、 更 真实 、 具 有 可 
交互 性 的 问题 情境 来 诱导 问题 解决 行为 (过 程 ) 的 
呈现 。 换 名 话说 ,反映 问题 解决 能 力 的 行为 样本 
相 比 于 反映 传统 心理 特质 的 更 为 复杂 。 这 对 问题 
解决 能 力 的 测量 方式 和 相应 的 数据 分 析 方 法 都 带 
来 了 挑战 。 为 回答 如 何 客观 、 准 确 地 测量 个 体 的 
问题 解决 能 力 ， 以 及 如 何 科 学 、 合 理 地 分 析 虚 拟 
测评 中 的 过 程 数据 这 两 个 问题 如 图 1 所 示 , 本 
文 将 围绕 问题 解决 能 力 的 测量 及 数据 分 析 方 法 这 
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一 主题 ， 从 (1) 问 题解 决 能 力 测量 方式 的 发 展 以 及 
(2) 过 程 性 数据 分 析 方 法 两 个 方面 展开 阐述 ,并 从 
非 认 知 因素 的 影响 、 多 模 态 数据 的 利用 、 问 题解 
决 能 力 的 发 展 、 其 他 高 阶 思维 能 力 的 测量 和 问题 
能 力 解 决 概念 及 结构 的 界定 五 个 方面 展望 未 来 可 
能 的 研究 方向 ， 以 期 为 国内 学 者 更 全 面 地 了 解 问 
题解 决 能 力 的 测量 及 为 过 程 性 数据 的 分 析 方 法 提 
供 理论 参考 。 


虚拟 测评 | -采集 一 过程 数据 Lt. ak 


图 1 基于 虚拟 测评 中 过 程 数据 的 问题 解决 能 力 测量 


2 问题 解决 能 力 测量 方式 的 发 展 


21 早期 问题 解决 能 力 测量 方式 

由 于 技术 条 件 的 限制 ， 早 期 问题 解决 能 力 测 
量 主 要 采用 传统 纸 笔 测 验方 式 ， 其 特点 是 基于 文 
字 表 述 给 个 体 营 造 一 定 的 问题 情境 ， 常见 于 各 学 
科 领 域内 的 学 业 成 就 测验 。 Novak (1961) 认 为 问题 
解决 能 力 的 测试 应 该 允许 被 试 在 多 个 选项 中 选择 
其 认为 最 正确 的 答案 ,同时 对 于 被 试 的 每 一 步 选 
择 ， 都 应 当 给 予 反馈 。 基 于 此 , Novak 将 作答 环节 
分 成 三 部 分 (如 图 2)， 每 一 部 分 提供 给 被 试 两 个 选 
择 ， 被 试 的 选择 范围 被 箭头 所 限制 ， 但 允许 被 试 


图 2 Novak (1961) 提 出 的 分 部 作答 模式 (红色 为 正确 答案 ) 


返回 上 一 部 分 选择 其 他 选项 。 该 测验 过 程 相 当 于 
被 试 需要 在 相互 关联 的 三 个 部 分 中 分 别 做 出 选择 
且 人 允许 被 试 在 不 同 的 作答 阶段 反思 和 修改 之 前 的 
选择 (例题 见 附录 图 Al)。 最 后 的 得 分 由 专家 依据 
被 试 提交 的 最 终 答案 序列 给 出 (例如 ，1 一 2 一 2 为 
满分 )。 

纸 笔 测验 的 优点 是 易于 大 规模 施 测 、 测 验 工 
有 具 开发 成 本 较 低 且 对 计算 机 编程 技术 的 依赖 程度 
较 低 ; 同时 ， 其 缺点 也 较为 明显 :一 方面 是 难以 记 
录 被 试 解决 问题 的 详细 过 程 ( 袁 建 林 ， 刘 红云 ， 
2020), 另 一 方面 是 难以 构建 真实 的 、 复 杂 的 问题 
情境 。 在 真实 的 、 复 杂 的 问题 情境 中 往往 需要 问 
题解 决 者 与 问题 情境 产生 实时 交互 , 这 有 助 问题 
解决 者 找 出 问题 产生 的 原因 并 做 进一步 的 探索 
(Greiff et al., 2013)。 

另外 ,值得 注意 的 是 ， 即 便 是 在 计算 机 尚未 
普及 的 年 代 也 已 出 现 了 小 部 分 虚拟 测评 。 如 : 模 
拟 经 营 服装 公司 的 “ 裁 颖 店 (tailor shop)” 和 充当 消 
防 队 长 并 负责 森林 消防 的 “消防 队长 (fire chief)” 
系统 等 (Funke, 1983; Omodei & Wearing, 1995)。 对 
于 这 些 早 期 的 虚拟 测评 ， 由 于 其 背后 缺乏 统一 的 
理论 指导 框架 ， 导 致 它们 对 问题 解决 能 力 的 测量 
结果 缺乏 可 比较 性 ( 张 生 等 ,2019)。 对 此 , 一 些 心 
理学 家 认为 在 不 同 领 域 中 有 待 解 决 的 问题 的 内 容 
和 过 程 不 尽 相 同 ,难以 提取 出 有 关 问 题解 决 能 
的 全 局 性 理论 ， 应 专注 于 测量 不 同 领域 下 的 问题 
解决 能 力 (Frensch & Funke, 2002)， 如 在 医疗 领域 
评估 被 试 的 病人 管理 能 力 和 医疗 问题 解决 能 力 的 
测评 系统 (Marshall, 1977; Diserens et al., 1986). 与 
之 不 同 ， 另 一 些 持 相反 观点 的 心理 学 家 认为 通过 
对 问题 情境 的 设置 可 以 构建 类 似 于 现实 生活 中 的 
问题 ， 进 而 去 评估 被 试 的 综合 问题 解决 能 力 。 如 
开发 了 基于 计算 机 的 情景 模拟 评估 系统 “ 治 察 和 森 
市 (Lohhausen)””*， 用 于 分 析 被 试 在 复杂 环境 下 的 
高 阶 思维 能 力 (Doerner, 1980)。 

21 世纪 初 , OECD (2003) 在 前 人 研究 的 基础 
E, 勾画 了 相对 全 面 的 问题 解决 框架 (如 图 3)。 该 
框架 可 分 为 题目 设置 和 问题 解决 方案 生成 两 部 
分 。 在 题目 设置 上 , 问题 情境 应 贴近 个 人 生活 或 


? 洛 豪 森 市 Lohhausen) 是 用 计算 机 模拟 现实 的 一 个 问题 解 
决 评估 系统 ， 受 试 者 被 要 求 担任 该 市 "市 长 " 可 以 通过 调 
整 税率 、 建 立 住房 等 措施 来 促进 城市 发 展 。 


和 
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工作 ,问题 类 型 需 侧重 不 同 的 认 知 过 程 ， 同 时 间 
题 内 容 也 要 涉及 到 不 同学 科 领 域 的 知识 。 在 问题 
解决 方案 生成 上 , 注重 学 生 的 内 在 问题 解决 过 程 
和 推理 技能 。 施 测 形式 上 ,依然 采用 了 传统 的 纸 
笔 测 验 形式 ， 用 文字 和 图 片 来 描述 问题 情境 ， 并 
基于 每 段 问题 表述 设置 不 同类 型 的 问题 ， 如 选择 
题 ， 简 答题 等 。 该 框架 结合 现 有 理论 研究 ,通过 对 


问题 类 型 的 设置 , 加 大 了 对 内 在 认 知 过 程 和 推理 
技能 的 考量 。 


“现实 生活 ” 


ei 


| 问题 情境 问题 类 型 。 ;学 科 | 
人 生活 AR E E 
工作 和 休闲 ;系统 分 析 和 设计 工艺 ay ， 
: : 故障 排除 : 


能 力 测量 新 方式 的 淘 望 ， 而 计算 机 (网 络 ) 的 高 速 
发 展 为 实现 对 问题 解决 能 力 等 其 他 高 阶 思维 能 力 
的 测量 带 来 了 希望 。 
2.2 ”利用 虚拟 测评 测量 问题 解决 能 

以 个 体 为 中 心 的 测评 应 做 到 在 真实 情景 中 对 
个 体 的 过 程 性 表现 进行 测评 ， 并 给 予 适 当 的 反 
人 馈 。 比 如 , Diehl 等 人 (2005) 基 于 修订 的 可 观察 日 常 
生活 任务 测验 (revised observed tasks of daily 
living) 考 察 老年 人 的 问题 解决 能 力 。 该 测验 要 求 
被 试 在 日 常生 活 环境 中 完成 药物 使 用 、 电 话 使 用 
和 财务 管理 等 任务 ,由 主 试 对 观察 并 记录 下 的 任 
务 完 成 情况 进行 打分 。 虽 然 这 种 基于 真实 情景 的 
施 测 方式 提高 了 测验 的 生态 效 度 , 但 其 施 测 成 本 
和 对 主 试 的 高 要 求 阻 碍 了 该 测验 的 大 规模 的 使 
用 。 鉴 于 在 真实 情景 中 进行 大 规模 施 测 缺乏 可 操 


作 性 (例如 , 成 本 过 高 、 数 据 记录 不 全 等 ) 可 在 大 
规模 测评 中 实时 并 完整 抓 取 个 体 作答 过 程 数 据 的 


图 3 OECD (2003) 问 题解 决 框架 . 


整体 来 看 ， 早 期 问题 解决 能 力 的 测量 主要 采 
用 传统 纸 笔 测验 。 但 由 于 技术 条 件 的 限制 ， 纸 笔 
测验 中 以 文字 或 图 片 构建 的 问题 情境 相对 缺乏 真 
实 性 和 情景 性 ,不 具备 实时 交互 功能 ， 难 以 诱发 
个 体 真正 的 问题 解决 能 力 。 可 以 说 ， 面 对 问题 解 
决 能 力 的 测量 需求 ,传统 纸 笔 测验 方式 已 心 有 余 
而 力 不 足 。 对 问题 解决 能 力 等 其 他 高 阶 思维 能 
的 测量 需求 促使 测量 方式 的 发 展 ， 对 个 体内 在 认 
知 过 程 的 重视 和 对 现实 问题 情境 模拟 的 追求 也 将 
提高 测量 的 生态 效 度 。 这 导致 研究 者 对 问题 解决 


虚拟 测评 逐渐 受到 人 们 的 关注 (Jiao & Lissitz, 
2018)。 美 国 心理 学 会 也 曾 把 利用 虚拟 工具 (例如 ， 
游戏 ) 促 进 学 习 列 和 人 到 2019 年 需要 关注 的 10 个 心 
理学 研究 趋势 之 中 (Weir, 2018)。 

虚拟 测评 工具 的 开发 是 一 个 相对 复杂 的 过 
程 。 相 比 于 传统 测评 工具 (例如 ， 李 克 特 量 表 )， 虚 
拟 测评 工具 的 开发 成 本 更 高 、 周 期 更 长 。 因 此 , 程 
序 开发 和 测验 设计 等 人 员 在 较为 统一 的 工具 开发 
框架 下 进行 及 时 沟通 是 必要 的 。 同时, 这 也 有 助 于 
保证 测量 结果 之 间 的 可 比 性 。 目 前 , 大 多 数 虚 拟 测 
评 工 具 是 基于 证 据 中 心 设计 (evidence-centered 
design, ECD; Mislevy et al.，2003) 框 架 开 发 的 
(Shute et al., 2017)。 该 框架 认为 测量 是 “基于 证 据 
进行 推理 ”的 过 程 ， 其 核心 内 容 是 对 能 力 模 型 、 证 
据 模 型 和 任务 模型 的 界定 。 其 中 ， 能 力 模 型 界定 
“ 测 什么 ”， 证 据 模型 界定 “怎么 测 ”， 任 务 模型 界 
定 “ 用 什么 工具 测 ”( 如 图 4 所 示 )。 男 外 , 还 有 界定 
“如 何 组 装 测验 ”的 组 装 模 型 和 “如 何 呈 现任 务 ” 的 
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图 4 证 据 中 心 设计 框架 中 的 能 力 模型 、 证 据 模型 和 任务 模型 (Zhao et al., 2015; Mislevy et al., 2003) 
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呈现 模型 ， 用 于 测验 整体 的 构建 。 该 框架 系统 地 
阐明 了 复杂 测验 设计 的 基本 结构 、 各 部 分 的 内 涵 
与 功能 及 相互 之 间 的 关系 , 适用 于 高 阶 思维 能 力 或 
学 科 核 心 素养 的 测评 工具 开发 ( 袁 建 林 ， 刘 红云 ， 
2017)。 

比如 ，Zhao 等 人 (2015) 基 于 ECD 构建 了 游戏 
化 测评 ， 用 于 测量 被 试 的 问题 解决 能 力 。 在 能 力 
模型 中 ， 从 “理解 问题 给 定 的 条 件 和 约束 ”、“ 规 划 
解决 方案 路 径 >、“ 是 否 有 效 或 高 效率 地 使 用 工具 ” 
和 “监测 和 评估 问题 解决 过 程 四 个 方面 去 评估 被 
试 的 问题 解决 能 力 。 在 任务 模型 中 ,选用 了 植物 
大 战 僵 尸 * 这 款 游戏 作为 被 试 要 完成 的 目标 ， 并 设 
定 了 相应 的 任务 难度 及 游戏 时 长 (附录 图 A2)。 在 
证 据 模 型 的 界定 中 ， 从 可 观测 的 变量 中 提取 了 一 
些 行为 指标 与 能 力 模 型 建立 了 联系 (附录 图 A3)， 
j 贝 叶 斯 网 去 搭建 各 变量 之 间 的 数学 关系 。 该 
游戏 测评 结果 与 MircoDYN5 测 试 结果 相关 显著 
(r= 0.48, p < 0.01), 基于 聚合 效 度 ， 表 明了 该 游 
戏 化 虚拟 测评 的 有 效 性 。 

此 外 ， 如 上 文 所 述 , 目前 诸如 PISA 和 NEAP 
等 大 规模 测评 项 目 也 已 经 开始 使 用 虚拟 测评 工具 
来 测量 学 生 的 问题 解决 能 力 ， 比 如 , PISA 2012 和 
NEAP 2014 探究 了 学 生 的 个 体 问 题解 决 能 
PISA 2015 探究 了 学 生 的 合作 问题 解决 能 力 。 以 
PISA 2012 的 一 道 题 为 例 (如 附录 图 A4 所 示 )， 题 
目 呈 现 了 一 个 MP3 播放 器 ,学 生 需 通过 点 击 播放 
器 的 按钮 来 了 解 其 工作 原理 。 在 此 基础 上 ， 学 生 
需 回 答题 目 对 应 的 4 个 问题 。 每 个 问题 则 侧重 考 
察 学 生 问 题解 决 中 不 同 的 认 知 过 程 , 例如， 第 一 
问 主要 考察 学 生 对 题目 的 探索 和 理解 、 第 二 问 主 
要 考察 学 生 问题 解决 中 的 计划 和 执行 能 力 等 。 该 
测验 通过 向 学 生 旦 现 生活 中 可 能 遇 到 的 问题 来 实 
现 对 其 问题 解决 能 力 的 评估 , 测评 结果 由 系统 判 
定 和 专家 评分 两 部 分 组 成 。 同 时 ， 大 规模 的 国际 
化 虚拟 测评 也 为 各 国 、 各 地 区 之 间 在 人 才 培 养 方 
面 提 供 了 参考 借鉴 的 机 会 。 


— 


“植物 大 战 僵 尸 是 一 款 策略 塔 防 类 游戏 ,玩家 需要 收集 阳光 ， 
安置 不 同 的 植物 ， 使 用 其 功能 以 阻挡 僵尸 的 入 侵 。 
*MircoDYN 是 一 个 基于 计算 机 交互 式 的 动态 问题 解决 评估 
系统 ,该 系统 将 多 个 任务 垦 入 线性 结构 方程 框架 用 来 评估 被 
试 的 动态 问题 解决 能 力 。 详 细 内 容 可 见 Greiff et al. (2012)。 


3 过程 性 数据 分 析 方法 


鉴于 虚拟 测评 的 新 疾 性 及 过 程 数 据 的 复杂 性 ， 
国内 外 关于 过 程 数据 的 分 析 方 法 的 研究 均 处 于 起 
步 阶段 。 经 过 梳理 ， 大 体 可 将 现 有 的 过 程 数 据 分 
析 方 法 分 为 两 类 : 数据 挖掘 法 (data mining) 和 统计 
建 模 法 (statistical modeling)。 其 中 ,前 者 属于 探索 
性 研究 方法 或 归纳 法 ， 是 基于 数据 驱动 的 自 下 而 
上 的 研究 方法 ,强调 从 已 有 数据 入 手 ， 对 数据 进 
行 描述 、 分 析 、 总 结 和 归纳 理论 ， 遵循 着 “发 现 的 
逻辑 ”; 而 后 者 属于 验证 性 方法 或 演绎 法 ， 是 基于 
理论 驱动 的 自 上 而 下 的 研究 方法 ,强调 从 理论 出 
发 ,生成 假设 ， 数据 检验 ,接受 或 者 拒绝 假 
设 ， 遵 循 着 “证 明 的 逻辑 ”。 如 图 5 所 示 ， 两 种 方法 
的 使 用 形成 了 一 个 循环 的 研究 过 程 (Johnson & 
Christensen, 2014), 推动 着 科学 人 研究 的 发 展 。 

A 验证 性 


peas 


假设 、 预 测 假设 、 预 测 


探究 性 


图 5 循环 研究 过 程 (Johnson & Christensen, 2014) 


3.1 数据 挖掘 法 

基于 虚拟 测评 产生 的 过 程 数据 ， 因 其 数据 结 
构 的 不 规则 性 和 来 源 的 复杂 性 ， 大 幅度 增加 了 分 
析 难 度 。 过 程 数据 背后 蕴藏 着 与 问题 解决 有 关 的 
认 知 加 工 过 程 ， 需 要 采用 特定 的 方法 来 挖掘 和 分 
析 。 数 据 挖掘 是 指 从 大 量 数据 中 通过 算法 来 揭示 
有 意义 的 新 的 关系 、 趋 势 和 模式 的 过 程 ( 王 光 宏 , Ki 
平 ,， 2004), 是 “从 数据 中 发 现 知识 规律 (knowledge 
discovery in databases)” (Fayyad et al., 1996) 的 过 
程 。 通 过 数据 挖掘 来 探索 过 程 数据 所 列 含 的 潜在 
言 息 是 教育 数据 挖掘 领域 的 主要 研究 逻辑 ， 目 前 
主要 涉及 有 监督 学 习 (supervised learning) 算 法 和 
无 监督 学 习 (unsupervised learning) 算 法 这 两 类 。 

有 监督 学 习 算 法 是 通过 已 有 的 训练 样本 ( 即 
已 知 数据 及 其 对 应 的 类 别 ) 来 训练 分 类 器 
(classifier)， 再 利用 训练 后 的 最 优 分 类 器 将 新 的 研 
究 样 本 映射 到 相应 的 类 别 中 ， 其 中 类 别 总 数 是 已 
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知 且 固定 的 。 目 前 , 使 用 有 监督 学 习 算 法 分 析 过 
程 数 据 的 研究 还 较 少 ,而 决策 树 (decision tree) 是 
被 使 用 相对 较 多 的 一 类 算法 ,主要 包括 分 类 和 回 
归 树 (CART; DiCerbo & Kidwai, 2013) 及 随机 森林 


程 , 单纯 的 数据 驱动 无 法 在 跨 任务 的 操作 中 提取 
或 者 构造 出 可 反映 个 体 自身 潜在 水 平 的 变量 (He 
et al., 2021), 很 难得 出 有 效 可 靠 的 结论 ,往往 需 
要 专家 的 进一步 介入 。 比 如 , 在 特定 情景 中 ， 需 要 


(random forest; Hao et al., 2016; hÆ 等 , 2018) 这 两 
种 方法 。 比 如 , 为 了 探索 可 以 有 效 预 测 被 试 反映 的 
寺 征 , Han 等 人 (2019) 从 被 试 的 行为 序列 有 策略 意 
义 的 行为 指标 和 时 间 维 度 三 个 方面 初步 提取 了 77 
个 特征 变量 , 通过 随机 森林 和 递归 特征 消除 法 第 
选 出 13 个 最 有 高 预测 表现 的 特征 变量 。 例 如 ， 是否 
应 用 “一 次 只 改 变 一 个 变量 (vary one thing at a time)” 
策略 和 应 用 该 策略 的 次 数 这 两 个 特征 变量 都 能 有 
效 预 测 被 试 是 否 有 和 较 大 概率 成 功 解决 问题 。 

无 监督 学 习 算 法 是 在 事先 没有 任何 训练 样本 
的 情况 下 ， 直 接 根 据 研究 样本 之 间 的 相似 性 对 样 
本 进行 分 类 ,并 试图 使 类 内 差距 最 小 化 日 类 间 差 
距 最 大 化 ， 其 中 类 别 总 数 是 未 知 且 不 固定 的 。 目 
前 ,在 对 个 体 问 题解 决策 略 进行 分 类 时 ， 主 要 采 
用 聚 类 分 析 (cluster analysis; Bergner et al., 2014) 
和 自 组 织 映 射 神经 网 络 (SOM:; Soller & Stevens, 
2007)。 鉴 于 不 同 的 无 监督 学 习 算 法 可 能 会 给 出 有 
差异 的 分 类 结果 ， 有 研究 建议 同时 使 用 多 种 无 监 
督学 习 算法 ， 比 如 Fossey (2017) 对 比 了 三 种 无 监督 
的 学 习 算 法 , 包括 k-means, SOM 和 使 用 链接 的 和 鲁 
棒 聚 类 算法 ROCK); Qiao F Jiao (2018) 针 对 同一 
批 数据 同时 研究 了 4 种 有 监督 学 习 算 法 (CART、 
随机 森林、 梯度 提升 决策 树 和 支持 向 量 机 ) 和 两 
种 无 监督 学 习 算法 (k-means 和 SOM) 的 表现 。 

该 方法 的 优势 在 于 基于 训练 好 的 分 类 器 或 者 
不 同 的 聚 类 规则 便 可 快速 实现 对 个 体 问 题解 决 能 
力 的 分 类 ， 同 时 应 用 数据 挖掘 算法 也 能 快速 帮助 
研究 者 从 高 维 复 杂 的 数据 中 挖掘 出 有 统计 意义 的 
言 息 ， 但 该 方法 在 心理 学 领域 中 的 应 用 和 推广 还 
需要 理论 基础 的 支撑 。 一 方面 就 数据 挖掘 算法 而 
言 ， 其 任务 是 从 数据 中 挖掘 隐藏 在 数据 中 的 模式 ， 
刻画 当前 数据 特征 或 构建 高 预测 率 模型 ( 王 光 宏 ， 
蒋 平 , 2004)。 但 其 构建 的 模型 或 得 出 的 结论 有 时 
不 能 给 我 们 带 来 任何 启示 ,其 至 是 无 用 的 。 对 
大 数据 的 处 理 ， 要 注重 对 其 背后 含义 的 理解 ( 吴 必 
等 , 2019)。 另 一 方面 ， 就 数据 挖掘 在 心理 学 中 的 应 
用 而 言 ， 心 理学 领域 注重 数据 结果 的 可 解释 性 或 
其 折射 出 的 基于 个 体 或 群体 的 心理 过 程 和 潜在 特 
质 等 。 过 程 数据 的 价值 在 于 其 背后 对 应 的 心理 过 


专家 界定 出 最 优 行为 序列 、 判 断 异常 行为 或 解读 
数据 分 析 结 果 (Hao et al., 2015; He et al., 2021; 
He & von Davier, 2016; Qiao & Jiao, 2018). Hb, 
对 于 特定 任务 下 结论 的 有 效 性 也 应 持 有 怀疑 的 态 
度 。 比 如 , Qiao 和 Jiao (2018) 的 研究 发 现 所 有 方法 
均 表 现 出 满意 的 分 类 一 致 性 , 但 在 此 研究 中 并 未 
发 现时 间 信 息 作 为 分 类 依据 的 重要 性 , 这 与 其 他 
已 有 研究 观点 不 同 (Chen，2020; Molenaar et al., 
2016; Ulitzsch et al., 2021)。 再 有 ,在 数据 的 预 处 
理 方面 ,如 数据 的 筛选 、 排 序 、 编 码 等 ， 处 理 方 法 
也 常常 因数 据 类 型 、 分 析 目 的 和 选用 算法 的 不 同 
而 不 同 ; 对 缺失 数据 、 极 端 值 和 重复 行为 序列 的 
处 理 也 且 尚 无 内 在 统一 标准 。 
3.2 ”统计 建 模 法 

统计 建 模 法 主要 是 指 利 用 人 工 建 模 的 思路 来 
分 析 数 据 的 方法 。 在 统计 建 模 中 , 一 般 基 于 理论 
假设 构建 函数 模型 ， 同 时 假设 观测 变量 是 由 该 模 
型 所 表达 的 概率 法 则 随机 生成 的 ( 洪 永 森 , 汪 寿 阳 ， 
2021)。 通过 统计 模型 来 解释 过 程 数 据 所 蕴含 的 潜 
在 信息 是 心理 计量 学 的 主要 研究 逻辑 (Bergner & 
von Davier, 2018)。 符 合 心 理 计 量 学 的 基本 假设 : 
个 体 的 内 隐 ( 潜 在 ) 特 质 决定 其 外 显 行为 。 目前 , 针 
对 记录 下 的 过 程 数 据 和 结果 数据 ,统计 建 模 法 主 
要 包括 心理 计量 联合 建 模 (psychometric joint 
modeling) 、 隐 马尔 可 夫 建 模 (hidden Markov 
modeling) 和 多 水 平 建 模 (multilevel modeling) 等 。 

心理 计量 联合 建 模 是 目前 最 常见 的 题目 层面 
过 程 数据 分 析 方 法 。 该 方法 的 逻辑 是 基于 RT 视 
角 下 的 联合 -层级 建 模 框 架 (joint-hierarchical 
modeling framework; van der Linden, 2007), 建构 
针对 不 同 数据 源 (例如 ,题目 作答 结果 和 题目 作答 
时 间 ) 的 心理 计量 模型 ， 然 后 使 用 多 元 正 态 分 布 描 
述 多 种 潜在 特质 之 间 的 关系 。 目 前 ， 该 方法 分 析 
的 过 程 数 据 主要 是 题目 作答 时 间 。 基 于 此 ， 研 究 
者 们 提出 了 一 系列 的 联合 模型 用 于 探究 个 体 潜 在 
能 力 、 加 工 速度 及 两 者 之 间 的 关系 (Fox & Marianti, 
2016; Man et al., 2019; Molenaar et al., 2018; 
Zhan & He, 2021; 詹 沛 达 , 2019)。 此 外 ,为 满足 当 
前 实践 对 诊断 性 测评 的 需求 ,， Zhan 等 人 (2018) 从 
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认 知 诊断 视角 对 联合 建 模 框架 进行 拓 广 ,所 提出 
的 联合 认 知 诊断 建 模 框架 允许 研究 者 使 用 不 同 的 
高 阶 认 知 诊断 模型 (e.g., de la Torre & Douglas, 
2004) 和 作答 时 间 模 型 (van der Linden, 2006) 分 别 
作为 作答 结果 和 作答 时 间 的 测量 模型 ， 进 而 可 以 
同时 探究 个 体 的 一 般 学 习 能 力 、 属 性 、 加 工 速度 
及 它们 之 间 的 关系 。 

隐 马 尔 可 夫 建 模 假设 个 体 的 解 题 历程 符合 马 
尔 可 夫 过 程 并 受 个 体 潜 在 能 力 的 影响 ,侧重 对 问 
题解 决 过 程 的 建 模 。 其 中 , 个 体 的 解 题 历程 包括 
外 显 的 操作 步骤 和 内 在 认 知 状态 的 变化 (如 ,问题 
表征 、 策 略 使 用 ); 马尔 可 夫 过 程 是 研究 离散 事件 


数据 之 间 的 变异 分 解 为 班级 、 学 校 或 地 区 等 不 同 
水 平 上 的 变异 ， 有 助 剥 离 出 造成 个 体 之 间 差 异 的 
真实 原因 ( 刘 红 云 ， 骆 方 , 2008)。Liu 等 人 (2018) 将 
该 逻辑 迁移 至 过 程 数据 分 析 中 , 假设 由 人 工 赋 分 
得 到 的 操作 层面 分 数 租 套 于 个 体 个 体 水 平 , 并 基 
于 该 逻辑 提出 了 适用 于 分 析 操 作 历 程 数据 的 多 水 
平 混合 IRT 模型 。 该 研究 与 Shu 等 人 (2017) 类 似 
的 是 需要 先 对 个 体 的 问题 解决 历程 进行 人 工 赋 分 ; 
所 不 同 的 是 该 研究 把 所 有 可 操作 项 (例如 ， 可 选 路 
线 ) 视 为 操作 层面 “题目 ”， 把 个 体 的 特定 操作 行为 
视 为 操作 层面 “人 ” 然后 根据 “人 ”在 “题目 "上 的 
“作答 ”去 估计 其 潜在 能 力 。 鉴 于 该 模型 同时 包含 


动态 系统 状态 空间 的 一 种 方法 ， 是 指 在 一 个 随机 


了 IRT 模型 、 潜 在 类 别 模型 和 多 水 平 模型 的 特点 ， 


过 程 中 事物 的 未 来 状态 仅 依赖 于 当前 状态 而 与 过 
去 状态 无 关 。Baker 等 人 (2011) 在 其 研究 中 验证 了 
马尔 可 夫 过 程 作为 认 知 模型 的 可 行 性 ， 且 马尔 科 
夫 过 程 已 被 广泛 应 用 于 过 程 数 据 的 建 模 中 (Shu 
et al., 2017)。Molenaar 等 人 (2016) 把 隐 马 尔 可 夫 模 
型 引入 到 联合 建 模 框架 中 ， 把 个 体 按 特定 顺序 的 
作答 视 为 马尔 可 夫 过 程 , 通过 分 析 个 体 在 不 同 题目 
上 作答 时 间 的 变化 探究 他 们 个 体内 (within-subjecb 
加 工 速度 的 变化 情况 。 鉴 于 作答 时 间 可 以 在 一 定 
程度 上 反映 个 体 对 知识 的 精 熟 程度 ，Wang 等 人 
(2018) 在 认 知 诊断 视角 下 提出 了 高 阶 隐 马尔 可 夫 
模型 ， 通 过 分 析 个 体 在 纵向 测验 上 作答 时 间 的 变 
化 测量 他 们 的 学 习 进 步 情况 。 实 际 上 ， 上 述 两 个 
研究 所 分 析 的 仍 是 题目 作答 时 间 。 与 之 不 同 , Shu 
等 人 (2017) 针 对 个 体 的 问题 解决 过 程 (操作 历程 ) 
提出 了 马尔 可 夫 IRT 模型 ,认为 个 体 的 当前 操作 
与 其 上 一 步 操作 和 其 潜在 能 力 有 关 。 该 模型 把 所 
有 可 能 的 相 邻 操作 行为 视 为 操作 层面 “题目 ”， 进 
而 根据 个 体 在 “题目 * 上 的 “作答 ”( 例 如 ， 是 否 呈 现 
该 操作 ) 去 估计 其 潜在 能 力 。 该 模型 巧妙 地 将 个 体 
的 问题 解决 过 程 转换 为 操作 层面 观察 分 数 ， 实 现 
了 在 单 题 内 估计 个 体 潜在 能 力 ,为 后 续 人 研究 提供 
了 借鉴 和 参考 。 

在 传统 心理 统计 中 ,多 水 平 建 模 (multilevel 
modeling) 常 用 于 分 析 因 分 层 抽样 导致 含有 内 套 关 
系 的 数据 '。 通过 多 水 平 建 模 可 将 个 体 水 平 上 个 体 


6 通常， 多 水 平 数据 的 分 布 在 个 体 之 间 不 具备 独立 性 ， 存在 
地 理 距 离 内 、 某 行政 区 域内 或 者 特定 空间 范围 内 的 聚集 性 
(clustering) 或 相似 性 。 


已 可 在 单 题 内 估计 个 体 的 问题 解决 能 力 并 判断 其 
所 采用 的 问题 解决 策略 。 

除 此 之 外 ， 近 些 年 也 有 研究 尝试 利用 题目 扩 
张 技术 (即将 一 道 虚 拟 测评 题目 中 正确 解答 所 需 
的 操作 流程 拆 解 为 多 个 子 流程 (或 步骤 )， 并 将 这 
些 子 流 程 视 为 相互 条 件 独 立 的 虚假 题目 (pseudo 
item); 然后 根据 个 体 在 解决 问题 过 程 中 是 否 呈 现 
出 这 些 子 流程 ， 对 其 进行 赋 分 )， 直 接 使 用 传统 的 
心理 计量 模型 对 过 程 数 据 进行 分 析 (Zhan & Qiao, 
2020)。 这 种 做 法 虽然 增加 了 数据 预 处 理 的 难度 ， 
但 大 幅度 降低 了 数据 分 析 的 难度 ， 为 分 析 过 程 数 
据 提 供 了 新 思路 。 
3.3 ”两 种 方法 的 对 比 

近 些 年 ,在 智能 时 代 背 景 下 ,研究 者 们 愈 发 
倾向 于 在 技术 增强 环境 (technology-enhanced 
environment) 中 探索 心理 与 教育 测量 的 新 范式 。 虚 
拟 测评 和 数据 挖掘 技术 因 其 “智能 ”属性 更 容易 引 
起 研究 者 和 实践 者 的 关注 。 比 如 ,利用 游戏 化 测 
评 来 测量 个 体 的 高 级 认 知 技能 ， 并 采用 数据 挖掘 
技术 分 析 数 据 以 实现 对 个 体 分 类 (Qiao & Jiao, 
2018)。 实 际 上 ,数据 挖掘 技术 与 潜 变 量 建 模 在 底 
层 逻 辑 上 存在 差异 : 后 者 主要 关注 的 是 隐藏 在 外 
显 行为 数据 背后 的 潜在 变量 ， 即 假设 潜在 变量 决 
定 外 显 行 为 ,并 通过 潜 变 量 模 型 实现 对 两 者 的 联 
接 ; 而 前 者 仅 关 注 外 显 行为 数据 的 分 析 , 通过 计 
算数 据 之 间 的 相似 性 或 距离 对 数据 进行 分 类 或 聚 
类 。 对 数据 挖掘 技术 而 言 ， 因 为 不 存在 理论 假设 
的 因果 关系 ， 所 以 我 们 难以 利用 其 结果 来 反 推 导 
致 该 结果 的 原因 。 因 此 ， 数据 挖掘 技术 的 结果 可 
解释 性 通常 低 于 潜 变 量 模型 的 ， 而 结果 的 可 解释 
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性 恰恰 是 心理 与 教育 测量 的 重点 。 

整体 而 言 ， 采 用 统计 建 模 法 分 析 过 程 数据 的 
主要 优势 是 结果 的 易 解释 性 且 符 合 心理 与 教育 研 
究 的 一 般 过 程 ( 如 图 6 所 示 ); 其 局 限 性 是 需要 针 
对 不 同类 型 的 过 程 数据 分 别 建 模 ， 这 也 导致 目前 
针对 不 同类 型 过 程 数据 的 建 模 逻 辑 尚未 统一 。 而 
数据 挖掘 法 的 主要 优势 是 可 以 同时 考虑 多 种 过 程 
数据 ， 其 局 限 性 是 结果 的 可 解释 性 较 差 ， 即 无 法 
直接 报告 个 体 的 具体 不 足 ， 仍 需 采 用 专家 判断 法 
做 推断 。 然 而 ,在 心理 与 教育 测量 中 ,尤其 是 在 诊 
断 性 测量 中 ,结果 的 易 解 释 性 显得 尤为 重要 。 另 
外 ， 现 有 的 数据 挖掘 方法 主要 是 基于 观察 变量 进 
行 分 类 ,而 非 基 于 个 体 的 潜在 特质 (例如 , 认 知 过 
程 或 知识 技能 ) 进 行 分 类 ,在 数据 源 和 数据 量 有 限 
的 情况 下 两 种 分 类 结果 并 不 完全 等 同 (Liu & 
Cheng, 2018)。 反 观 ， 基 于 潜在 特质 进行 分 类 ， 明 
确 指出 个 体 在 特定 的 认 知 过 程 或 知识 技能 上 的 不 
足 ， 有 助 于 教师 或 干预 者 有 针对 性 地 制定 补救 教 


学 或 干预 方案 。 
提出 问题 和 假设 
检验 假设 做 出 结论 设计 研究 方案 
处 理 分 析 资 料 实施 研究 和 收集 资料 


图 6 心理 与 教育 研究 的 一 般 过 程 


m~~] 


实际 上 ,数据 挖掘 法 和 统计 建 模 法 各 具 优 势 ， 
在 心理 与 教育 测量 中 ,它们 适用 于 解决 不 同 的 问 
题 。 前 者 更 适用 于 在 具有 多 变量 且 不 满足 特定 概 
率 密度 函数 的 复杂 数据 情境 下 挖掘 隐藏 的 规律 ， 


构建 可 联接 外 显 行为 与 潜在 特质 的 统计 模型 ， 并 
依据 这 些 统计 模型 实现 对 个 体 潜 在 特质 水 平 或 类 
别 的 估计 。 比 如 ,针对 题目 作答 精度 数据 ， 基 于 
Logistic 函数 构建 的 耻 T 模 型 ， 并 依据 IRT 模型 实 
现 对 潜在 能 力 水 平 的 估计 ; 或 针对 题目 作答 时 间 ， 
基于 对 数 正 态 分 布 函 数 构建 题目 作答 时 间 模 型 
依据 题目 作答 时 间 模 型 实现 对 潜在 加 工 速度 水 
平 的 估计 。 由 于 统计 建 模 法 以 被 试 参数 的 形式 来 
反映 个 体 的 问题 解决 能 力 ， 所 以 采用 该 方法 的 研 
究 对 问题 解决 能 力 的 报告 形式 是 由 被 试 参数 的 类 
型 决定 的 。 比 如 , Shu 等 人 (2017) 用 连续 潜 变 量 表 
示 个 体 的 问题 解决 能 力 , Zhan 和 Qiao (2020) 用 连 
续 变 量 表示 个 体 的 一 般 问 题解 决 能 力 并 用 类 别 变 
量 表 示 个 体 的 问题 解决 策略 。 
以 基于 特定 问题 拟 将 个 体 的 问题 解决 能 

分 为 “高 "、“ 中 ”和 “ 低 ” 三 个 类 别 为 例 。 若 采用 数 
据 挖掘 法 ， 比 如 有 监督 学 习 算 法 ， 就 需要 先 采 用 
专家 判断 法 对 已 知 的 典型 行为 数据 打 标 签 (如 ， 
包含 哪些 行为 表现 的 数据 可 以 被 标记 为 “高 ”), 
然后 将 训练 数据 和 对 应 标签 放 入 分 类 器 进行 训 
练 ,， 再 用 训练 好 的 分 类 器 去 分 析 个 体 解 决 该 问题 
时 的 行为 数据 ， 进 而 实现 对 个 体 问 题解 决 能 力 的 
分 类 ; 而 若 采用 统计 建 模 法 ， 就 需要 先 对 观测 到 
的 行为 数据 进行 描述 性 统计 ， 判 断 其 分 布 形态 是 
否 符 合 某 种 概率 密度 函数 ， 然 后 基于 该 概率 密度 
函数 构建 同时 包含 反映 问题 解决 能 力 的 被 试 参数 
和 题目 参数 的 统计 模型 (其 中 被 试 参 数 应 为 类 别 
变量 )， 再 用 所 构建 的 模型 去 分 析 个 体 解决 该 问题 
时 的 行为 数据 ， 进 而 实现 对 个 体 问题 解决 能 力 的 
参数 估计 。 

目前 ， 虚 拟 测 评 中 过 程 数据 的 主要 作用 还 是 
为 测量 个 体 的 问题 解决 能 力 提供 信息 ， 仍 遵循 不 


并 依据 这 些 规律 对 个 体 进 行 分 类 , 但 同时 又 不 需 
要 解释 分 类 的 具体 原因 的 场景 。 比 如 ,在 自 适 应 
学 习 系 统 中 根据 学 生 的 学 习 时 长 、 练 习 结果 、 内 
容 偏好 等 多 变量 的 数据 进行 分 类 ,进而 推荐 适合 
的 学 习 内 容 , 或 依据 特定 评分 (级 ) 规 则 对 文字 内 
容 ( 例 如 ， 作文) 进行 自动 评分 (级 )。 由 于 数据 挖掘 
法 解决 的 是 分 类 问题 所 以 采用 该 方法 的 研究 常 
以 分 类 结果 来 报告 个 体 问题 解决 能 力 之 间 的 差异 
(如 , “正确 组 “元 余 行 为 组 "“ 离 群 组 ”等 ; Qiao & 
Jiao, 2018)。 相 比 之 下 ,后 者 更 适用 于 在 满足 特定 
概率 密度 函数 的 数据 情境 下 ,基于 概率 密度 函数 


可 观测 的 问题 解决 能 力 决 定 可 观测 的 过 程 数据 这 
一 基本 假设 。 鉴 于 统计 建 模 法 可 以 基于 模型 预先 
构建 导致 外 显 行为 的 (理论 ) 原 因 ， 更 适用 于 以 结 
果 解 释 为 目的 应 用 情境 ， 所 以 针对 问题 解决 能 

测量 这 一 议题 , 统计 建 模 法 仍 将 发 挥 主要 作用 。 
波 普尔 指出 “不 是 经 验 的 重复 产生 心理 的 信念， 
而 是 心理 的 信念 产生 经 验 的 重复 ”( 成 素 梅 ， 荣 小 
雪 , 2003, p. 15), 虽然 从 已 有 经 验 、 观 测 数 据 中 可 
以 归纳 出 一 些 有 用 的 结论 和 概括 ,但 其 也 仅 是 提 
供 了 一 些 可 能 的 说 法 。 科 学 发 展 的 逻辑 还 须 是 从 
理论 假设 出 发 ， 用 数据 验证 理论 或 者 推翻 理论 ， 


JF! 


"202303.09792v1 


chinaXiv 


ChinaX iva ERAT 


530 心理 科学 进展 第 30 卷 


即 遵循 着 “假设 检验 ”的 过 程 和 “可 证 伪 原 则 ”。 

最 后 ,值得 注意 的 是 ， 尽管 我 们 强调 基于 过 
程 数据 的 问题 解决 能 力 测量 及 数据 分 析 方 法 , 但 
国内 外 相关 研究 似乎 并 没有 否定 根据 传统 结果 数 
据 推断 个 体 问题 解决 能 力 的 方式 ， 只 不 过 利用 过 
程 数据 可 以 更 好 地 呈现 出 被 试 解决 问题 的 过 程 
有 助 于 了 解 个 体 呈 现 不 同 作 管 结果 的 历程 ,有 助 
于 更 准确 地 推断 个 体 的 问题 解决 能 力 。 比 如 , 一 
气 呵 成 地 解决 特定 问题 和 经 过 反复 退 改 地 解决 同 
一 问题 的 两 位 学 生 ,， 尽管 他 们 的 结果 是 一 样 的 ， 
但 他 们 间 题 解决 能 力 很 可 能 是 不 一 样 的 ( 即 似乎 
前 者 更 高 ); 而 一气呵成 "和 “反复 退 改 " 正 是 过 程 
数据 所 呈现 的 ， 单 赁 结果 数据 无 法 区 分 两 位 学 生 
的 问题 解决 能 力 。 实 际 上 , 无 论 是 统计 建 模 法 还 
是 数据 挖掘 法 ， 都 可 以 联合 分 析 或 同时 利用 结果 
数据 和 过 程 数 据 。 比 如 ， 在 统计 建 模 法 中 ,心理 计 
量 联 合 建 模 可 以 联合 分 析 题 目 作 答 精 度 这 一 结果 
数据 和 题目 作答 时 间 这 一 过 程 数据 ; 在 数据 挖掘 
法 中 ， 基 于 有 监督 学 习 算 法 ， 可 以 利用 结果 数据 
作为 典型 行为 数据 的 标签 (如 ， 满 分 作答 结果 包含 
哪些 必要 的 行为 过 程 ? 相 比 于 满分 作答 结果 ,得 
到 部 分 作答 结果 又 缺少 了 哪 几 个 关键 行为 过 程 ? ) 
去 训练 分 类 器 ; 而 基于 无 监督 学 习 算法 , 可 以 利 
用 结果 数据 来 检验 分 类 的 有 效 性 (如 ,探索 出 的 类 
别 是 否 较 好 地 分 离 出 某 个 测验 中 的 完成 者 和 未 完 
成 者 )。 


4 讨论 与 展望 


本 文 对 问题 解决 能 力 测量 方式 的 发 展 以 及 虚 
拟 测评 中 过 程 数据 的 分 析 方 法 进行 了 梳理 。 测 评 
方式 的 转变 和 过 程 数 据 的 分 析 对 问题 解决 能 力 的 
研究 有 重要 意义 , 一 方面 为 研究 问题 解决 过 程 及 
其 影响 因素 提供 了 技术 的 支持 , 男 一 方面 也 有 助 
于 实现 应 用 过 程 数据 对 其 他 高 阶 思维 的 测量 。 但 
目前 在 概念 界定 、 数 据 采 集 和 分 析 上 仍 有 较 大 的 
发 展 空间 ,未 来 研究 者 可 以 从 非 认 知 因素 带 来 的 
影响 、 多 模 态 数据 的 利用 、 问 题解 决 能 力 的 发 展 、 
其 他 高 阶 思维 能 力 的 测量 和 问题 解决 能 力 概念 及 


"可 证 伪 原 则 是 由 波 普 尔 提出 ,其 认为 科学 的 理论 应 具有 可 
证 伪 性 。 一 个 理论 的 可 证 伪 性 就 是 指 该 理论 推导 出 的 结论 
在 逻辑 上 或 在 原则 上 有 可 能 与 一 个 或 一 组 观察 陈述 发 生 
抵触 。 


结构 的 界定 五 个 角度 人 手 ， 进一步 丰富 有 关 问 题 
解决 能 力 的 测评 研究 。 
4.1 非 认 知 因素 对 问题 解决 能 力 的 影响 

李 一 敬 和 黎 坚 (2020) 探 讨 了 复杂 情境 中 的 问 
题解 决 能 力 的 影响 因素 , 认为 问题 解决 能 力 不 仅 
涉及 到 推理 能 力 、 工 作 记忆 容量 和 加 工 速度 等 认 
知 加 工 能 力 ， 还 受到 个 体 的 元 认 知 调节 、 知 识 背 
景 、 动 机 和 情绪 等 非 认 知 因素 的 影响 。 而 现 有 的 
过 程 数据 分 析 方 法 仍 主要 停留 在 对 特定 认 知 加 工 
过 程 的 建 模 与 分 析 上 。 将 问题 解决 能 力 视 为 一 个 
笼统 的 单 维 潜在 特质 或 仅 关注 对 特定 认 知 加 工 过 
程 的 测量 ,在 测量 中 忽略 了 其 他 非 认 知 因素 对 问 
题解 决 能 力 的 影响 。 像 态度 、 情 感 、 信 念 和 一 些 
能 反应 人 格 特质 的 非 认 知 因素 , 被 称 为 非 认 知 能 
HOULEZ, Kyllonen, 2019; RRR, EPR, 
2021)。 非 认 知 能 力 不 仅 影响 着 问题 解决 的 过 程 ， 
也 对 个 体 学 业 和 劳动 力 市 场 表现 有 着 重要 作用 
(SEF, 王 小 军 ,2017)。 如 何 扩展 现 有 数据 分 析 
方法 , 纳入 对 非 认 知 能 力 的 测量 与 分 析 ， 是 全 面 
了 解 个 体 ， 提 高 个 体 问题 解决 能 力 的 有 效 途 径 。 
42 利用 多 模 态 数据 测量 问题 解决 能 

当前 对 过 程 数据 的 挖掘 和 分 析 主 要 集中 在 题 
目 作 答 精 度 、 作 答 时 间 和 行为 序列 上 。 这 些 数据 
还 不 足以 全 面 反映 个 体 问题 解决 中 的 认 知 及 非 认 
知 过 程 。 实 际 上 ， 虚 拟 测 评 等 其 他 计算 机 化 测验 
的 自动 化 特性 使 其 能 够 在 个 体 解决 问题 过 程 中 实 
时 记录 不 限于 过 程 数 据 的 多 种 类 型 数据 ( 即 多 模 
态 数据 )。 比 如 ， 除 题目 作答 精度 和 题目 作答 时 间 
外 ,通过 般 入 式 传感器 (例如 ， 眼 动 仪 ) 还 可 以 同 
步 记 录 诸 如 眼 动 和 神经 活动 等 生物 计量 数据 
(biometric data), Jeon 等 人 (2021) 通 过 分 析 题 目 作 
答 精 度 和 大 脑 激 活 数据 , 测量 了 个 体 的 潜在 能 
和 大 脑 激 活水 平 ; Man 和 Harring (2020) 通 过 分 析 
题目 作答 精度 、 作 答 时 间 和 了 眼 动 数据 , 测量 了 个 
体 的 潜在 能 力 、 潜 在 加 工 速度 和 潜在 专注 力 水 平 ; 
Bezirhan 等 人 (2021) 融 合 分 析 了 题目 作答 精度 、 作 
答 时 间 和 重 访 题目 次 数 (revisit counts， 考生 在 首 
次 答 完 某 题 后 再 次 访问 该 题 的 次 数 ), 测量 了 个 体 
的 潜在 能 力 、 潜 在 加 工 速度 和 重 访 题目 倾向 。 男 
Hh, Zoanetti (2010) 的 研究 中 不 仅 记录 了 被 试 解决 
问题 时 的 操作 信息 ， 同 时 也 搜集 了 被 试 的 口头 表 
述 信 息 (例如 ,被 试 在 某 一 时 刻 说 :“ 我 不 明白 ”) 和 
外 在 行为 数据 (例如 , BUA. WA), 进而 区 分 了 相 
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似 过 程 数据 下 的 不 同 认 知 过 程 。 比 如 ， 当 不 同 被 
试 在 问题 表征 阶段 花费 相似 时 间 时 ， 可 结合 口头 
表述 信息 去 判断 他 们 是 在 理解 题目 还 是 在 构思 解 
决 方案 。 
在 虚拟 测评 中 ， 由 于 多 模 态 数据 的 采集 几乎 
是 同时 进行 的 ， 且 它们 提供 的 是 有 关 被 试 在 问题 
解决 时 的 平行 信息 ， 因 此 ,也 有 研究 者 将 它们 称 
为 平行 数据 (parallel data; Jeon et al., 2021)， 比 如 ， 
被 试 正确 作答 某 题目 耗 时 30 秒 并 投入 20 个 视觉 
注视 点 。 对 多 模 态 数据 的 融合 分 析 ， 为 从 更 全 面 
的 视角 理解 个 体 的 问题 解决 能 力 提供 了 可 能 性 。 
未 来 ， 随 着 传感器 的 可 便携 性 增加 及 成 本 下 降 ， 
多 模 态 数据 的 采集 与 分 析 势 必 会 常态 化 , 非常 值 
得 心理 与 教育 测量 领域 研究 者 的 关注 。 
4.3 ”对 问题 解决 能 力 发 展 的 测量 
测量 和 促进 个 体能 力 的 发 展 是 心理 学 与 教育 
学 中 需要 解决 的 重要 问题 (Zhan & He，2021)， 对 
问题 解决 能 力 发 展 变 化 的 研究 事 关 教 学 设计 和 教 
学 策略 的 制定 与 实施 。 然 而 ， 当 前 对 问题 解决 能 
力 的 测量 主要 依赖 于 对 横断 过 程 数据 的 分 析 ， 较 
少 依赖 于 对 纵向 过 程 数 据 的 分 析 。 一 方面 是 因为 
对 横断 过 程 数 据 分 析 尚 未 有 较为 统一 的 认识 和 分 
析 范 式 , 探讨 可 分 析 纵 向 过 程 数据 的 方法 可 能 还 
为 时 尚 早 ; 另 一 方面 是 因为 纵向 虚拟 测评 工具 的 
开发 难度 更 高 。 
目前 , 已 有 一 些 研究 尝试 使 用 虚拟 测评 中 的 
一 些 外 显 指标 来 评估 个 体 问 题解 决 能 力 的 发 展 。 
比如 ， 张 博 等 人 (2014) 基 于 游戏 化 测评 使 用 由 成 
功 完成 推 箱子 题目 的 数量 来 表示 的 认 知 能 力 、 由 
每 题 计 划 时 间 与 作答 总 时 间 的 比值 来 表示 的 元 认 
知 能 力 和 由 每 题 所 用 总 步 数 来 表示 的 认 知 效率 三 
个 指标 对 比 研 究 了 普通 儿童 和 超常 儿童 的 问题 解 
决 能 力 的 发 展 。 研 究 结 果 表 明 , 11~14 岁 之 间 , 超 
常 儿童 问题 解决 能 力 的 发 展 遵循 着 高 起 点 ， 先 快 
后 慢 的 规律 ; 普通 儿童 则 起 点 较 低 ， 发 展 先 慢 后 
快 。 随 着 年 龄 的 增长 ， 二 者 之 间 差 异 逐 渐 缩小 。 
同时 ， 该 发 展 模式 也 体现 在 两 组 儿童 的 认 知 能 
和 元 认 知 能 力 两 个 维度 上 , 但 在 认 知 效率 上 ， 二 
者 之 间 的 差异 并 没有 随 施 测 时 间 不 同 而 发 生 显著 


= 


44 其 他 高 阶 思 维 能 力 的 测量 

如 上 文 所 述 ， 除 问题 解决 能 力 外 ， 高 阶 思维 
能 力 还 包括 批判 性 思维 能 力 和 创造 性 思维 能 力 等 ， 
其 不 仅 影响 着 个 体 在 学 业 或 事业 上 的 表现 ， 也 是 
当代 社会 发 展 对 人 才 的 基本 要 求 ( 钟 志 贤 ，2004; 
Brookhart, 2010; Carroll & Harris, 2020)。 除 问题 解 
决 能 力 外 ， 目 前 已 有 很 多 研究 尝试 使 用 虚拟 测评 
去 测量 诸如 创造 力 、 领 导 力 等 其 他 高 阶 思维 能 
(Shute & Rahimi, 2020; Stanek & Sabat, 2019). 7 
Sb, 2022 年 OECD 也 计划 采用 情景 化 测评 方式 来 
测量 个 体 的 创造 力 (OECD, 2019)。 未 来 ， 随 着 测量 
方式 及 数据 分 析 技 术 的 不 断 发 展 ， 充 分 利用 计算 
机 (网 络 ) 技 术 , 尤其 是 人 工 智 能 ， 并 结合 便携 式 
和 低 成 本 的 心理 学 实验 仪器 , 我们 有 理由 相信 可 
以 在 大 规模 测验 中 实现 对 高 阶 思维 能 力 的 测量 。 
4.5 ”问题 解决 能 力 概 念 及 结构 的 界定 

当前 国内 外 对 问题 解决 能 力 的 主要 研究 基本 
都 是 围绕 OECD (2013) 对 问题 解决 能 力 的 定义 实 
施 的 。 首 先 ， 该 定义 并 没有 局 限于 特定 的 任务 情 
境 ; 因此 , 该 定义 所 述 的 问题 解决 能 力 是 一 种 一 
般 化 能 力 或 特质 。 其 次 , 该 定义 将 其 所 强调 的 认 
识 加 工 又 进一步 细 分 为 (1) 探 索 和 理解 、(2) 表 征 和 
构想 、(3) 计 划 和 执行 和 (4) 监 测 和 反思 ; 同时 , 值 
得 注意 的 是 ， 除 认 知 加 工 外 , 该 定义 中 还 特别 强 
调 了 个 体 参 与 问题 解决 的 意愿 。 因 此 ,该 定义 所 
述 的 问题 解决 能 力 至 少 具 有 多 维 结构 ， 而 至 于 是 
和 否 满足 高 阶 结构 ， 可 能 需要 后 续 研 究 做 实证 验证 
或 理论 阐述 。 另 外 ,该 定义 所 述 的 是 个 体 问 题解 
决 能 力 , 目前 已 有 研究 开始 探讨 协作 问题 解决 
(collaborative problem solving) (如 , Unal & Cakir, 
2021); 而 协作 问题 解决 能 力 与 个 体 问题 解决 能 
的 概念 及 结构 有 何 区 别 仍 值得 后 续 研 究 做 进一步 
探讨 。 最 后 , OECD (2013) 对 问题 解决 能 力 的 定义 
是 否 具 有 跨 时 代 稳 健 性 ( 即 该 定义 是 否 会 随时 代 
的 发 展 产 生变 化 ) 也 值得 后 续 研究 者 们 的 关注 。 
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LIU Yaohui XU Huiying', CHEN Qipeng', ZHAN Peida”? 
(' Department of Psychology, College of Teacher Education, Zhejiang Normal University, Jinhua 321004, China) 
Ê Key Laboratory of Intelligent Education Technology and Application of Zhejiang Province, 
Zhejiang Normal University, Jinhua 321004, China) 


Abstract: Problem-solving competence is an individual’s capacity to engage in cognitive processing to 
understand and resolve problem situations where a method of solution is not immediately obvious. The 
measurement of problem-solving competence requires the use of relatively more complex and real problem 
situations to induce the presentation of problem-solving behaviors. This brings challenges to both the 
measurement methods of problem-solving competence and the corresponding data analysis methods. Using 
virtual assessments to capture the process data in problem-solving and mining the potential information 
contained therein is a new trend in measuring problem-solving competence in psychometrics. To begin with, 
we reviewed the development of the measurement methods of problem-solving competence: from 
paper-and-pencil tests to virtual assessments. In addition, we summarized two types of process data analysis 
methods: data mining and statistical modeling. Finally, we look forward to possible future research 
directions from five perspectives: the influence of non-cognitive factors on problem-solving competence, 
the use of multimodal data to measure problem-solving competence, the measurement of the development of 
problem-solving competence, the measurement of other higher-order thinking competencies, and the 
definition of concept and structure of problem-solving competence. 

Key words: problem-solving competence, processing data, virtual assessment, computer-based assessment, 


higher-order thinking competence 


